Wprowadzenie

Przeprowadzono analizę hierarchicznych algorytmów analizy skupień z funkcji hclust, a także Genie z pakietu genie.

Index Genie ward.D ward.D2 average centroid complete mcquitty single median
Rand 0.8217569 0.6240664 0.5798559 0.5747127 0.527099 0.5164047 0.5094533 0.5088948 0.4813493
Index Genie ward.D average centroid ward.D2 single complete mcquitty median
FM 0.8760022 0.7749391 0.7706649 0.7609984 0.7576893 0.7471257 0.7289628 0.7172253 0.6993347

Uwzględniając wszystkie zbiory danych, średnio najbardziej dokładny okazał się algorytm genie. Korzystając z funkcji scale na zebranych danych, zbadano czy standaryzacja ma wpływ na analizę skupień

Index Genie ward.D ward.D2 average complete single mcquitty centroid median
Rand 0.8067503 0.6185202 0.5840398 0.5470569 0.4853129 0.4827884 0.469384 0.4347834 0.3687009
Index Genie ward.D ward.D2 average single centroid complete mcquitty median
FM 0.8639463 0.7706613 0.7585514 0.757316 0.7353765 0.727638 0.703089 0.6981062 0.6753151

Standaryzacja danych średnio pogorszyła dokładność klasteryzacji.

Opracowanie danych 2d

Podglad klasteryzacji zbioru “twosplashes”, liczba klastrow: 2

Podglad klasteryzacji zbioru “z3”, liczba klastrow: 4

Podglad klasteryzacji zbioru “unbalance”, liczba klastrow: 8

Podglad klasteryzacji zbioru “target”, liczba klastrow: 6

Podglad klasteryzacji zbioru “engytime”, liczba klastrow: 2

Podglad klasteryzacji zbioru “compound”, liczba klastrow: 6